Milestone 2: Explorative Datenanalyse
Bivariate Analyse
Korrelationsmatrix:
Eine hohe Korrelation liegt als je zwischen altem und neuen Kontostand vor (sowohl beim Sender als auch beim Empfänger). Ein gewisser positiver Zusammenhang könnte zwischen dem Betrag und dem Empfängerkonto liegen. Der negative Zusammenhang zwischen change.balanceOrg und dem neuen Kontostand des Senders ist nachvollziehbar (je mehr Geld vom Konto weggeht, desto kleiner ist der Kontostand dort anschließend.)
Density Plots im Vergleich nach Fraud-Status:
- Betrügerische Transaktionen haben tendenziell höhere Beträge.
- oldbalanceOrg liegt bei notFraud bei einem Großteil bei 0. Bei Fraud ist dies nicht der Fall
- change.balanceOrg: der abgegangene Betrag ist bei Fraud klar höher.
Barplot nach Typ und Fraud-Status:
Zu erkennen: Es sind nur betrügerische Transaktionen bei den Typen “CASH_OUT” und “TRANSFER” vorhanden. Diese werden näher betrachtet.
CASH_OUT Transaktionen:
- oldbalanceOrig: bei notFraud liegt der Betrag größtenteils bei 0, bei Fraud ist der Kontostand so ziemlich nie bei 0. Im Durchschnitt auch eindeutig höher.
- newbalanceOrig: bei Fraud liegt der Betrag dann größtenteils bei 0 (Konto geplündert).
- change.balanceOrg: nochmal zu sehen, dass der abgegangene Betrag bei Fraud klar höher ist.
TRANSFER Transaktionen
- oldbalanceOrig: bei notFraud liegt der Betrag größtenteils bei 0, bei Fraud ist der Kontostand so ziemlich nie bei 0. Im Durchschnitt auch eindeutig höher.
- oldbalanceDest & newbalanceDest: das Seltsame ist, dass Fraud ziemlich genau bei 0, aber newbalanceDest ebenfalls bei 0 liegt.
- change.balanceOrg: nochmal zu sehen, dass der abgegangene Betrag bei Fraud klar höher ist.
Confusion Matrix für flagFraud:
Überprüfung der Konten
Überprüfen, ob das Konto, von dem die Transaktion ausgeht, mehrere betrügerische Transaktionen durchführt.
nameOrig_count Frequency
1 1 8213
Die allermeisten Absender (99,7%) kommen ein einziges Mal vor, der Rest taucht maximal 3x als Absender auf.
Überprüfen, ob das Konto, auf das die Transaktion erfolgt, mehrere betrügerische Transaktionen erhält.
nameDest_count Frequency
1 1 8125
2 2 44
Pro Zielkonto gibt es also maximal 2 Betrugsfälle. Auffallend ist in dem Datensatz jedoch, dass Zielkonten wesentlich häufiger vorkommen: 35% sind nur einmalig Ziel von Transaktionen, einzelne Konten tauchen über 100x als Ziel auf. Dennoch wird kein “klassisches Betrugskonto” gefunden.
Überprüfen, wie viele Konten, von dem die Transaktion ausgehen, auch Transaktionen ohne Betrug durchführt haben.
Fraud_nameOrg_in_nonFraud Frequency
1 0 8185
2 1 28
Die allermeisten Konten sind also ausschließlich betrügerisch, jedoch mit vereinzelten Ausnahmen.
Überprüfen, ob Transaktionen zwischen denselben Konten existieren.
Es gibt keine Transaktion zwischen dem selben Konto.